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基于 自动 机 的 Java 信息 流 分 析 - 


吴 泽 智 "*?， 陈 性 元 "*?， 杜 学 绘 !， 杨 智 : 
(1. 解放 军 信息 工程 大 学 密码 工程 学 院 ， 郑州 450001; 2. 密码 科学 技术 国家 重点 实验 室 ， 北京 100094) 


摘 要 : 面向 Java 的 信息 流 分 析 工 作 需 要 修改 编译 器 或 实时 执行 环境 ， 对 已 有 系统 兼容 性 差 ， 且 缺乏 形式 化 分 析 与 安 
全 性 证 明 。 首 先 ， 提 出 了 基于 有 限 状 态 自动 机 的 Java 信息 流 分 析 方 法 ， 将 整个 程序 变量 污点 取 值 空间 抽象 为 自动 机 状 
态 空间 ， 并 将 Java 字 节 码 指 令 看 做 自动 机 状态 转换 动作 ; 然后 ， 给 出 了 自动 机 转换 的 信息 流 安 全 规则 ， 并 证 明了 在 该 
规则 下 程序 执行 的 无 干扰 安全 性 ; 最 后 , 采用 静态 污点 跟踪 指令 插入 和 动态 污点 跟踪 与 控制 的 方法 实现 了 原型 系统 IF- 
JVM， 既 不 需要 获得 Java 应 用 程序 源码 ， 也 不 需要 修改 Java 编译 器 和 实时 执行 环境 ， 更 独立 于 客户 操作 系统 。 实 验 结 
果 表 明 ， 原 型 系统 能 正确 实现 对 Java 的 细 粒 度 地 信息 流 跟踪 与 控制 ， 性 能 开销 为 53.1%。 
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Automata-based information flow analysis for Java 


Wu Zezhil ?, Chen Xingyuan!*, Du Xuehui!, Yang Zhi! 
(1. College of Cryptogram Engineering, PLA Information Engineering University, Zhengzhou 450001, China; 2. State Key 
Laboratory of Cryptology, Beijing 100094, China) 


Abstract: Existing Java-oriented information flow analysis works do not compatible with current systems due to the modifying 
of the compiler or run-time execution environment. At the same time, they also lack of formal analysis and security proof. First, 
this paper proposed a formal Java-oriented information flow analysis method based on finite state automata. It abstracted the 
taint value space of entire program variables into the state space of automata and transferred the Java bytecode instructions into 
the state transition actions of automata. Then, it given the information flow security rules of state machine conversion and proved 
the noninterference security property under these rules. Finally, it implemented the prototype system named IF-JVM by using 
the static taint track instruction inserting and dynamic taint tracking technologies. IF-JVM is independent of the customer 
operating system. Neither needs to get the source code of Java application, nor needs to modify the Java compiler or run-time 
execution environment. The experimental results show that the IF-JVM is an accurate system that tracking and controlling 
information flow for the Java with the 53.1% overhead on performance. 


Key Words: finite state automata; dynamic taint tracking; information flow analysis; noninterference; Java 


引言 


已 有 的 工作 在 硬件 层 外 、 虚拟 机 层 、 高 级 语言 层 、 低 级 语言 


I、 操作 系统 层 外 、 网 络 层 和 数据 层 外 实现 了 不 同 粒度 的 信息 


动态 信息 流 跟 踪 山 又 可 称 为 动态 污点 跟踪 或 动态 数据 流 跟 ” 流 控制 ,与 本 文 密切 相关 的 是 虚拟 机 层 实现 和 高 级 语言 层 实现 
指 在 程序 执行 过 程 中 跟踪 所 感 兴趣 的 数据 流 集合 。 信 息 流 ”在 虚拟 机 层 , TaintDroid[g 在 Dalvik 虚拟 机 层 实现 了 全 系统 动态 
I 机 制 实现 的 核心 思想 是 将 标签 (附着 在 数据 上 , 标签 随 着 数 污点 跟踪 ，Trishul[ 基 于 kaffe 虚拟 机 实现 了 Java 动态 污点 跟 


据 在 整个 系统 中 传播 (数据 派生 出 的 对 象 也 将 会 继承 原 有 数据 ，” 踪 ,，Laminarg 实 现 了 首 个 基于 虚拟 机 和 操作 系统 相 结合 的 信息 


标签 )， 并 使 用 这 些 标签 来 限制 程序 间 的 数据 流向 。 机 密 性 标签 流 跟踪 控制 系统 ,其 他 相关 工作 93] 在 JavaScript. Python, PHP 
可 以 保护 敏感 数据 不 被 非法 或 恶意 用 户 的 读 取 ; 而 完整 性 标签 和 Java 上 实现 了 信息 流 跟踪 , 但 上 述 工作 缺乏 相关 安全 性 分 析 
可 以 保护 重要 信息 或 存储 单元 免 受 不 可 信和 或 恶意 用 户 的 破坏 。 与 证 明 ， 且 实现 需要 修改 相应 Java 虚拟 机 运行 环境 ,兼容 性 较 
其 广泛 应 用 于 与 计算 机 系统 安全 相关 的 各 个 领域 。 差 。Jift0455 基 于 编译 器 实现 静态 信 eons 实现 了 
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录用 稿 吴 泽 智 ， 等 : 基于 自动 One S Java 信息 流 分 析 
基于 类 型 系统 的 无 干扰 安全 性 分 析 , 但 其 实现 需要 修改 编译 器 ， ”对 于 任意 安全 标记 x My A: A) x 八 x=x， 满 足 等 究 性 ; (2) 
且 其 大 部 分 工作 在 静态 完成 ， 对 动态 信息 流 跟 踪 与 控制 支持 不 x 人 y=y 八 x， 满足 可 交换 性 ; G) xAWAD=CAYAz, 满足 可 结 
够 。 本 文 综合 以 上 工作 的 优势 ， 主 要 贡献 如 下 : 合 性 .其 顶 元 素 是 空 集 @， 表 示 为 T， 对 于 V PITA x, AT 

a) 提 出 了 基于 有 限 状 态 自动 机 的 Java 信息 流 分 析 方 法 ， 通 八 x=x; 底 元 素 是 全 集 U, AL, 对 于 V 中 所 有 x, AL Axe 
过 将 整个 程序 变量 污点 取 值 空间 抽象 为 状态 空间 , 并 Java FE ” Vlwv,s) 表 示 该 程序 内 所 有 的 变量 及 其 安全 标记 值 。 

码 指令 看 做 自动 机 状态 转换 动作 ， 给 出 了 自动 机 转换 的 信息 流 4 表示 系统 动作 ， 可 引起 自动 机 状态 发 生 转 变 。 系 统 动作 
规则 ， 为 面向 Java 的 信息 流 控制 工作 提供 理论 基础 。 不 同类 型 的 指令 组 成 。 如 图 1 所 示 ， 本 文 将 系统 动作 主要 分 

b) 给 出 了 基于 高 级 输入 和 低级 输出 的 无 干扰 安全 的 定义 ， 为 九 类 ,分 别 是 算术 操作 类 ( math_op ), 初 始 化 类 ( allocate_op ), 

证 明了 自动 机 状态 转换 的 的 无 干扰 安全 性 。 返回 操作 类 ( return_op )， 取 数值 类 ( load_op )， 存 数值 类 


法 实现 了 原型 
也 不 需要 


1 ”自动 机 信息 流 分 析 


有 限 状 态 自 动机 (finite state automata) 简 称 有 限 自 动机 ， 是 


具有 离散 输入 输出 系 


c) 采 用 静态 污点 跟踪 指令 插入 和 动态 污点 跟踪 与 控 上 
系统 正 -JVM, 既 不 需要 获得 Java 应 用 程序 源码 ， 
多 改 Java 编译 器 和 解释 器 ， 更 独立 于 客户 操作 系统 。 


| 的 方 


统 的 数学 模型 ， 广 泛 


应 | 


于 程序 语言 的 设 


(Store_op )， 常 数 操作 类 ( const_op )， 跳 转 类 ( jump_op )， 调 用 


类 ( invoke_op ) 和 栈 操作 类 ( stack_op )。 对 于 算术 操作 类 ， 其 又 


包含 14 种 子 类 型 , 以 add 指令 


a=atb 为 例 , 将 程序 中 变量 a 和 


b 数值 v 进行 加 法 运算 


吉 果 保存 于 a 中 ， 同时 ， 将 a Ej b 


并 将 


的 安全 标记 进行 交汇 运算 入 ， 并 更 新 a 的 安全 标记 。 对 于 初始 


化 类 ， 其 中 又 包含 3 种 子 类 型 ， 
度 的 数组 同时 创建 相应 安全 标记 。 


以 newarray 为 例 ， 创 建 给 定 长 
对 于 返回 操作 类 ， 以 dreturn 


为 例 ， 
存 取 操作 数 同时 存 了 
安全 标记 取 值 为 0。 
条 件 跳 转 goto 和 空 

入 系统 动 


jB |E 


计 和 实现 中 。 同 时 ， 在 安全 模型 形式 化 验证 领域 也 有 着 重要 的 
应 用 。 它 具有 有 限 数量 的 状态 ， 用 此 来 记忆 过 去 输入 的 有 关 信 
息 ， 并 根据 当前 的 输入 确定 下 一 步 的 状态 和 行为 。 一 个 有 限 自 
动机 可 等 价 地 看 做 一 个 系统 行为 (事件 ) 驱 动 的 状态 转换 图 ， 系 
统 的 行为 (事件 ) 包 括 输入 事件 、 输 出 事件 和 内 部 事件 。 因 而 信息 
流 安全 策略 可 以 由 系统 状态 转移 规则 来 进行 形式 化 描述 。 本 文 
有 限 状 态 自动 机 具有 两 个 功能 ， 其 一 ， 用 于 记录 系统 所 有 实体 
及 其 安全 标记 的 值 和 系统 所 有 输入 和 输出 动作 的 集合 ， 其 二 ， 
依据 安全 策略 阻止 信息 流 从 高 级 实体 向 低级 实体 流动 。 本 文 自 
动机 定义 如 下 : 

P the name of a program 

v the value of a varible 

s the security context of a varible 

V all variables in the program 

a a set of actions 

Q an execution or a sequence of actions 

II the programe counter of VM 

= the stack and heap of VM 

Q the set of states of automata 

do the start states of automata 

Xu a finite set of input 

K(X) the secret inputs 

(v) the influenced varibles by the secret input 

y a finite set of output 

K(W) the Secret outputs 

T(v) the security context of output varible 

ô a transition function 

P RZ Java 程序 ， 程 序 由 数据 和 指令 组 成 。v 表示 变量 的 

取 值 。 变量 的 类 型 包括 boolean, byte, character. integer, short, 
long、 float、 double、object 和 arrays。s 表示 变量 的 安全 标记 值 。 
为 跟踪 多 源 信息 流 ， 安 全 标记 由 不 同 种 基本 标记 多 组 成 ， 安 


全 标记 构成 偏 序 格 (只 ， 人 ，] ,了 T), 交汇 运算 入 取 集合 并 集 U ， 


栈 顶 数值 和 相应 的 安全 标记 。 
区 其 安全 标记 。 


值 返回 return 等 不 改变 自动 机 状态 指 
E. Q 表示 动作 序列 ， 


Tl RANE MAW BEI. E 表示 虚拟 机 


对 于 存 取 操作 类 ， 在 
对 于 常数 操作 类 ， 规 定常 数 
LIA PRU IG 
令 不 列 
一 系列 顺序 执行 的 动作 组 成 。 
E 栈 存储 的 数 


对 于 后 续 操作 类 才 


Pj 


据 的 安全 标记 值 。 


机 状态 定义 为 L(V, sh, pe) ， 


此 可 自动 


定义 自动 机 状态 及 其 状态 转换 。 
自动 机 状态 转换 可 描 


Q (V, sh, pc) a Q' (V', sh’, pc') RFF Q (V, sh, pc) Q Q' (V', sh’, pc’) 。 qo 
表示 自动 机 初始 状态 。 


a = math_op 


allocate_op 


add | mul | div | rem | sub | and | or | shl 
| shr | ushr | xor | lemp | dempl | dempg 


anewarray | newarray | multianewarray 


return_op areturn | dreturn | ireturn | freturn | Ireturn 
load_op aaload | baload | caload | daload | iaload 
faload | laload | saload | dload | fload | iload 
load | getfield | getstatic 
store_op aastore | astore | bastore | castore | dastore 
iastore | fastore | lastore | sastore | dstore | fstore 
istore | lstore | putfield | putstatic 
const_op bipush | sipush | iconst | Iconst | dconst | fconst 
Ide | Idew | Ide2_w | aconst_null 
jump_op if_acmpeg | if_acmpne | if_icmplt | if_icmpge 
if_icmple | if_icmpeg | if_icmpne | ifeq | ifne 
ifgt | ifge | ifle | iflt | ifnennull | ifnull 
invoke_op invokespecial | invokevirtual | invokeinterface 
| invokestatic 
stack_op swap | pop | pop2 
1 系统 动作 类 型 
YX 表示 程序 输入 集 。 程 序 输入 包括 用 户 键盘 输入 ， 读 取 文 


例如 用 


序 执行 过 程 中 受到 高 级 输入 影 


件 , 数据库 或 者 网 络 接收 数据 等 。x(X) 表示 输入 集中 高 级 输入 。 
户 输入 的 密码 或 程序 读 取 的 隐私 文件 等。 


(v) 表示 在 程 
Ra. V 表示 程序 输出 


向 的 变量 
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录用 稿 
集 。 程序 输 出 包括 屏幕 显示 ( 


中 包 


换 示 意 。 


库 或 网 络 发 送 等 。 
含 受 高 级 输入 影响 的 变量 。 


(R-INIT) 
(R -INPUT - H) 
(R - MATH) 

(R — ALLOCATE) 
(R — RETURN) 
(R —- LOAD) 

(R — STORE) 

(R - CONST) 

(R — INVOKE) 

(R — SWAP) 

(R — JUMP) 
(R-OUTPUT - L) 
(R-OUTPUT - H) 


例如 printf), SAX 
集中 高 级 输出 ， 
Tv) 表示 输出 变量 的 降 密 能 

例如 ， 若 变量 v 虽然 受 高 级 输入 影响 ， 但 该 高 级 输出 为 内 部 输 


Kk(w) ai 


牛 ， 写 入 数据 


出 (如 写 入 秘密 文件 ), 为 保证 系统 可 


ChinaXiv 合 作 期 刊 


Ag 


吴 泽 智 ， 等 


: 基于 自动 机 的 Java 


im | 
信息 流 分 析 


qo V:0:6; 5:6; Ig; E:@) 
OV::y,; s:sy; IE 
OT:(: Mavj) S$:(57,5)); TI: 
QT :(v:¢; 5:¢; IE ; 
OT :(:v,; sis; II ; 
OT:(:v,; sisp IE ; 
OT :(:v,; sis; II ; 
OV:(:v,; sisp IE ; 


四 


[1] 


O w 


四 


QT:Q:,sy); S: (Sis 
Q T:(v:0,,5))5 S$ : (87,5)); TI: 
OV:(:v,; sis; IE 

QT: Mivvy s: sy IE 
QT:0:v; S :Sy; Tl 


= 


为 便于 理解 ， 给 出 如 表 1 所 示 程 序 代 码 及 其 
对 于 第 一 条 程序 语句 ， 应 用 R-ALLOCATE 和 


即 输 出 内 容 


Sy); TI: 


自动 机 状态 转 


是 安全 的 。5 表示 自 
此 , 自动 机 系统 可 完全 描述 为 (Q, 4, X,W,q0) 。 
换 规 则 如 下 : 


allocate 


return 


Store 


const 


Son K(X) t Fely s: SAE 
E: )—< Q T:(v:«(y); s: (S; A Seg) I: 


oes 
三 


性 与 灵活 性 , 该 高 级 输出 


动机 状态 转换 函数 , 表示 为 CxX 5 Q'xy 。 


动机 状态 转 


) 


E: ) 一 2 >O/ T: (v2 vv) s: (S; AS;)3 Il; 3) 
) g" Ti(vivg; S: Sy; II ; =: ) 
QT: v: mA ) S: Sg II ; & ) 
g )— QT: v:n; sis Ik 5 E as) 
: ) OT: iv s: IE ; E: ) 
yen» O' r: 0:v; S: Sy; Il: ; =: ) 
; )— >O/ LV 055) IE ; E: ) 
a: ) 一 2 sg" L :QV: (VV)); S: (81,8)); TI: ; & ") 
5 =: ) HPS O'T (v: v; s: ;I ;SS:) if =¢ 
E; ) 一 “>O/ TiK) S: Sea TE E: ) if Sky) =¢ 
=: )— 5 0'T:(v: Ky); 8 Sey)? Ti: ;= ) if Srey) <TQ) 


型 的 高 级 输入 ， 系 统 公开 输出 是 等 价 的 。 为 证 明 系 统 满足 无 二 


扰 安全 性 ， 


首先 给 出 安全 标记 传播 的 单调 性 定义 及 其 i 


FHH, 


R-INPUT -H 规则 , 假设 系统 初始 环境 为 空 , R-ALLOCATE 安全 标记 传播 的 单调 性 定义 为 :四 自动 机 状态 一 次 转换 
规则 将 变量 a 及 其 安全 标记 添加 到 自动 机 状态 中 ， 函数 /表示 , WF REI © PAY x Aly. fx Ay) < fo) Af). 
R-7ZNVPUT- 瑟 规则 根据 输入 KOO 设置 变量 a 的 数值 和 安全 标 ”单调 性 也 可 等 价 定 义 为 : 自动 机 状态 一 次 转换 由 函数 了 表示 ， 
记 值 。 同 理 ， 对 于 第 二 条 程序 语句 执行 相同 的 操作 。 对 于 第 三 ”对 于 安全 标记 格 多 中 的 x 和 ])，x<)y 草 含 Oo) IMEHA 
条 语句 应 用 R-ALLOCATE 和 R-CONST 规则 ， 种 定义 是 等 价 的 : 
R- ALLOCATE 规则 将 变量 str 及 其 安全 标记 添加 到 自动 机 状 先 证 明 单 调 性 @ 可 推导 出 单调 性 Q@: 由 于 x 人 y 是 x 和 yy 的 
aS, R-CONST 规则 设置 常量 的 安全 标记 值 为 6 。 对 于 第 四 最 大 下 界 , 则 x 八 y <x 且 x 八 y<y， 由 单调 性 @ 可 知 fx Ay) sfx) 
条 程序 语句 ， 应 用 R- INVOKE 规则 ， 将 实 参 数值 和 安全 标记 。 且 fx 信 y)<f0)， 同 时 fx 作 y) 是 fx) 和 fy) 的 最 大 下 界 ， 单 调 性 
值 传递 给 形式 参数 及 其 安全 标记 值 。 对 于 第 八条 程序 语句 ， 应 ”外 得 证 。 然 后 ， 证 明 单 调 性 四 可 推导 出 单调 性 @: 假设 x<y， 
FA R-MATH 规则 ， 将 c 安全 标记 更 新 为 c 与 d 的 安全 标记 值 单调 性 可 知 fx 信 y)<fx) 信 fy)， 根 据 定义 有 x 八 y=x。 因 此 
交汇 值 。 对 于 第 九条 程序 语句 ， 应 用 R-RETURN 规则 ， 将 变 有 x)<fx) 信 fy)。 因 为 hx 八 ) 是 有 x) 和 fy) 的 最 大 下 界 ， 得 到 
量 a 数值 和 安全 标记 设置 为 返回 值 和 返回 值 的 安全 标记 ， 并 将 。 fa) Afo) Sf). A fo) Sfx) Afr) $f), Bl fod sf), FAVA 
该 方法 调用 中 使 用 的 本 地 参数 值 及 其 安全 标记 从 自动 机 状态 中 EOE. 
删除 。 对 于 第 五 条 程序 语句 , MH R-OUTPUT - 工 规则 ， 变 量 对 于 任意 安全 标记 和 安全 标记 YX 属于 XU7。 由 此 , 可 
sr 其 安全 标记 为 空 ， 因 而 该 输出 是 安全 的 。 对 于 第 六 条 程序 语 。 系统 的 无 干扰 安全 性 证 明 如 下 : 
句 , MH R-JUMP 规则 , 变量 b 其 安全 标记 不 为 空 ， 故 该 跳 转 对 于 第 一 种 情况 : 假设 自动 机 初始 状态 
是 不 安全 的 ， 自 动机 将 拒绝 该 条 程序 语句 和 状态 转换 ， 第 七 条 G Vi: 9; 5:6; IG; Ep) ,一 个 状态 转换 序列 Q 可 分 解 为 n 个 
语句 不 能 执行 。 动作 a1,a2,... ,anoan 为 公开 输出 动作 ,由 规则 R- OUTPUT -L 
可 知 该 公开 输出 动作 KY) 为 空 。al 为 某 高 级 输入 动作 KU) ， 
e 执行 后 自动 机 状态 转换 为 GT :QV si sw TEE), 
安全 性 证 明 采 用 无 干扰 分 析 方 法 ， 是 一 种 抽象 出 安全 本 质 a, .. > ani 为 任意 输入 输出 或 者 其 他 动作 。 假 设 系统 高 级 输 
的 分 析 方 法 。 直 观 可 理解 为 : 若 受 保护 的 数据 与 不 受 保护 的 数 入 动作 影响 了 系统 公开 输出 动作 ， 则 有 ， 执 行动 作 anda, AB 
据 之 间 不 存在 相互 干扰 ， 则 认为 该 系统 是 安全 的 。 在 本 文 情形 PL 状 态 OViviy, 3 sis II 5B) 转换 为 
， 无 干扰 表现 为 程序 高 级 输入 不 影响 程序 公开 输出 ， 即 阻止 OV:(viy,3 Si Sa E 芋 )。 由 单调 性 可 知 A Saa S50, 5 | 
了 信息 流 从 高 级 输入 流向 公开 输出 。 无 干扰 安全 可 形式 化 定义 ”于 公开 输出 动作 K(W) 为 空 ， 即 5 IE, M Saa 也 为 室 。 执 行 
类 


K VELIK) Whe QIEXEyL KH) 。 即 对 于 任意 不 同 


动作 ani Ja, 


AHIRE O T O: Vaa 5: 54,; TEGE ) 转换 
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于 56 为 空 , 故 56, 也 为 空 ,依次 类 推 ,可知 Sa 为 空 , 即 Seen) 
为 空 ， 而 显然 Sy 不 为 空 。 与 前 提 了 矛盾 ， 故 系统 高 级 输入 动作 3.1 系统 实现 
不 影响 系统 公开 输出 动作 。 C 系统 实现 采用 动态 污点 跟踪 技术 ， 结 合 静态 污点 跟踪 指令 
系统 公开 输出 的 安全 标记 丝 插入 和 动态 污点 跟踪 与 控制 的 方法 , 实现 了 对 Java 虚拟 机 细 粒 

上 述 无 干扰 性 只 考虑 | E 度 地 信息 流 跟 中 与 控制 。 既 不 需要 获得 Java 应 用 程序 源码 ， 也 
开 输 出 无 干扰 安全 ， 则 系统 是 安全 的 ), 若 该 输出 为 系统 内 部 输 不 需要 修改 Java 解释 器 ， 更 独立 于 客户 操作 系统 。 
出 ， 系 统 仍 满足 特定 条 件 下 的 无 干扰 安全 性 : 为 实现 细 粒 度数 据 标记 ， 需 要 为 每 个 程序 变量 设置 相应 污 
WS) STO): Sen) STO) wlx(X)IEXEy[x(x,)] 。 即 任意 高 点 影子 变量 。 为 便于 理解 ， 给 出 源 代码 层次 污点 跟踪 代码 插入 
级 输入 与 降 密 能 力 满足 偏 序 关系 ， 系 统 内 部 输出 是 等 价 的 。 证 | 示例 ， 如 表 2 所 示 。 污 点 变量 类 型 为 taint， 可 针对 不 同 跟踪 粒 
明 如 下 : 度 和 跟踪 需求 进行 相应 设置 ， 本 文 定义 taint 为 32 位 无 符号 整 
假设 自动 机 初始 状态 do Vivid; 9:9; Ths 三) ,一 个 状态 。 数 .程序 变量 包括 基本 变量 类 型 和 引用 类 型 ,基本 类 型 如 int a, 

转换 序列 Q 可 分 解 为 n 个 动作 a1l，a2，..，，an。an 为 内 部 输出 double b 为 其 设置 污点 a_tag 与 b_tag。 引 用 类 型 包括 对 象 和 数 
动作 ， 由 规则 R-OUTPUT-H 可 知 该 内 部 输出 动作 组 ， 对象 包 括 实例 化 的 类 ， 为 其 设置 污点 class tag; 数组 又 包 

Sey STO). al 为 某 高 级 输入 动作 Kk(X) ， 执 行 后 自动 机 状态 。 插 基 本 类 型 数组 和 对 象 类 型 数组 , 基本 类 型 数组 byte[] array 为 
PEN OT yy Si Se TB) a, an ACER BEGM taint[] arrar_tag， 每 个 数组 值 对 应 相应 污点 值 ， 对 象 
入 输出 或 者 其 他 动作 。 执 行动 作 an 后 ， 自 动机 状态 1 类 型 数组 污点 值 保存 于 相应 对 象 中 Java 虚拟 机 栈 包 括 两 部 分 : 
QTO: Vaa Si Saq p TE 5 ) 转 换 为 ” 操作 栈 和 局 部 变量 区 ， 该 两 部 分 可 看 做 一 个 方法 帧 ， 对 于 方法 
QT:GO:ivV,; 5:5; TE >=). 由 单调 性 可 知 ， 有 ss S Sa 调用 plus(c, 办， 需要 创建 一 个 新 的 方法 帧 ， 并 传递 参数 及 其 污 
于 内 部 输出 动作 Sey STO), BR Sa, STO), Be Sa STO). Ht 点 plus(c,c_tag, qd, 4d_tag)。 当 调用 结束 时 , 需要 返回 相应 的 数值 
行动 作 ani 后 , 自动 机 状态 由 QT:G :v6 ,; 5:56,; IE Se 及 其 污点 标记 。 因 而 ， 在 非 空 返回 时 ， 需 要 将 数值 及 其 污点 存 
换 为 CI:O:w Si Sa p EGE), 单调 性 可 知 ， 入 容器 内 并 返回 return taintint-valueof(c, c_tag)， 返 回 后 销毁 该 
Saa S Sao FA Saa STO) 可 知 % ,TW)。 依 次 类 推 ， 可 知 帧 。 

Saa S Sq, 9 Sq, STO) 。 即 有 5 STO), Seo STO). 假设 系统 表 2 污点 跟踪 代码 插入 示例 
满足 偏 序 关系 的 高 级 输入 动作 KU) 与 x(%) 影 响 了 系统 内 部 原始 程序 代 冰 污点 跟踪 程序 代码 


输出 动作 ， 则 必 有 ， 
(Sc) LTO) A sc) STO) 而 
(Secu) STO) A Seca) STO) 矛盾 。 故 满足 人 1 
动作 KC) 与 x(%o) 不 影响 系统 内 部 输出 


(Sey) STOD A Greg) ETO) 或 者 
与 已 知 


条 件 


局 序 关 系 的 高 级 输入 


表 1 自动 机 状态 变迁 示例 
程序 代码 自动 机 输入 ”自动 机 判断 自动 机 状态 
public class example{ allocate(a) OK {a}:{ 从 } 
1. int a=system.in(); input(a) OK {a}y:{s1} 
allocate(b) OK {a bis, É} 
2. int b=system.in(); input(b) OK {a, b}:{ s1 ,52} 
allocate(str) OK {a, b, str}:{ 1,82, 从 } 
3. String str="hello’; const(str) OK {a, b, str}:{ 51,82, 从 } 


4. a=plus(a, b); invoke(plus) OK 


{a, b, str, c, d}:{ s1 52, yg a S1 ys2} 


{a, b, str}:{ an Ass 从 } 


{a, b, str, c, d}:{ 81,82, 从 , 81/\s2, S2} 


5. system.out(str); output(str) OK 

6. if(b) jump(d) NO 

7. system.out(str); - 

plus(int c, int d) { 

8. c=ctd; math(add) OK 

9. return c;} return(c) {a, b, str}:{ si/\s2, 82, 从 } 


} 


public class example { 


int a; 


double b; 


byte[] array; 


array= new byte[5]; 


plus(int c, int d) { 


public class example { 
taint class_tag; 

int a; 

taint a_tag; 

double b; 

taint b_tag; 

byte[] array; 

taint[] arrar_tag; 
array= new byte[5]; 
array= new taint[5]; 


plus(int c, taint c_tag, int d, taint d_tag) { 


c=ctd; c=ctd; 
c_tag=c_tag | d_tag: 
return c;} return taintint.valueof(c, c_tag)} 
} } 
为 实现 细 粒 度 信 息 流 跟踪 ， 需 要 为 每 种 可 发 生 污点 传播 的 
指令 进行 污点 传播 。 其 具有 代表 性 的 指令 如 表 3 所 示 。 
为 实现 细 粒 度 信 息 流 控制 ， 需 要 在 程序 关键 调用 点 进行 数 
据 污点 标记 和 数据 污点 检测 。 用 户 可 使 用 配置 文件 预定 义 某 类 
方法 返回 值 污点 类 型 (如 用 户 键盘 输入 ) 及 方法 参数 的 污点 检测 
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(如 执行 SQL 语句 )。 同 时 ， 用 户 可 使 用 SetTaint(val,taint) Fil 
GetTaint(va7) 来 设置 和 获取 任意 变量 的 污点 标记 。 


表 3 指令 级 污点 传播 分 析 
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图 2 两 系统 运行 时 间 对 比 


第 二 ， 测 试 两 系统 在 运行 时 最 大 堆 的 内 存 占用 ， 其 结果 如 
图 3 所 示 。IF-JVM 较 JVM 平均 多 占用 堆 内 存 323.1%， 这 是 由 
于 除了 程序 自身 数据 结构 需要 占用 堆 内 存 之 外 ， 静 态 插入 的 用 
于 保存 相应 数据 的 污点 数据 结构 也 需要 占用 堆 内 存 。 


序号 指令 类 型 指令 含义 污点 传播 操作 
将 栈 顶 两 数 污点 标记 交汇 运算 后 更 新 
1 算术 (add) 将 栈 项 两 数 相 加 
栈 顶 数 污点 标记 
分 配 将 数组 长 度 变 量 污 点 设置 为 空 ， 并 创 
2 创建 指定 长 度 的 数组 
(newarray) 建 相 应 长 度 的 污点 影子 数组 
取 数 将 相应 本 地 变量 的 污点 影子 变量 取 到 
3 从 本 地 变量 取 数 入 栈 
l(iload) 栈 顶 下 
将 该 数 索 引 值 污点 设置 为 空 ， 并 将 大 
取 数 
4 从 数组 中 取 数 入 栈 污点 影子 数组 相应 索引 位 置 取 入 栈 顶 
2(iaload) 
下 
存 数 
5 将 数据 存 入 本 地 变量 《将 相应 本 地 变量 的 污点 影子 变量 存 入 
1(istore) 
存 数 将 该 数 索 引 值 污点 设置 为 空 ， 并 将 其 
6 将 数据 存 入 数组 
2(iaload) 污点 存 入 相应 索引 位 置 污 点 影子 数组 
返回 将 方法 的 返回 值 于 栈 顶 “将 返回 值 及 其 污点 值 存 入 返回 容器 ， 
7 
1(ireturn) jk 执行 areturn 
返回 将 方法 的 引用 对 象 于 栈 ” 若 该 栈 顶 对 象 是 基本 类 型 数组 ， 存 入 
8 
2(areturn) 项 返 加 其 数值 与 污点 
9 ”常数 (iconst) 取 常 数 入 栈 将 相应 污点 影子 变量 设置 为 空 
10 WKAR 1(ifge) ”比较 栈 顶 整数 并 跳 转 栈 顶 弹出 相应 的 污点 影子 变量 
跳 转 
11 比较 栈 顶 两 整数 并 跳 转 栈 顶 弹出 相应 的 两 污点 影子 变量 


2(if_icmpge) 


12 ”交换 (swap) 交换 栈 顶 两 数 交换 两 数 相 应 的 污点 数值 
若 该 数 是 基本 类 型 或 基本 类 型 数组 ， 
13 ”弹出 (pop) 栈 顶 弹出 


弹出 其 污点 影子 变量 


将 该 方法 转换 为 含 污点 参数 的 调用 方 


调用 调用 一 个 方法 ， 弹 出 调 
14 法 ， 若 参数 对 象 通过 基本 类 型 数组 传 
(invoke) 参数 并 压 入 返回 值 
递 ， 将 其 存 入 容器 
长 度 
15 计算 数组 长 度 在 栈 顶 返回 值 下 存 入 数值 “0” 


(arraylength) 


3.2 ”系统 测试 
系统 测试 环境 为 : os/Ubuntu-12.04, CPU/2.27 GHz, RAM/4 
GB, 使 用 虚拟 机 版 本 为 OpenJDK “IcedTea” JVM 1.8.0。 选 择 测 


试 工具 Scalabench 。 
第 一 , 测试 两 系统 的 运行 时 间 , 每 个 子 测试 项 目 运 行 10 次 


记录 平均 值 ( 子 测试 项 目 详细 信息 可 参见 : 
http://www.benchmarks.scalabench.org/modules/scala-benchmark- 
suite/)， 其 结果 如 图 2 所 示 。IF-JVM 较 JVM 运行 效率 平均 延迟 
53.1%, 这 是 由 于 除了 运行 程序 自身 指令 之 外 , 还 需要 运行 静态 
插入 的 污点 传播 指令 。 其 中 子 测 试 项 目 scaladoc 性 能 延迟 最 大 ， 
这 是 由 于 该 测试 程序 中 对 于 数组 及 字符 串 等 对 象 处 理 指令 过 多 ， 
导致 污点 传播 指令 增多 。 
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图 3 两 系统 堆 空 间 占用 对 比 


4 ”结束 语 
针对 当前 面向 Java 的 信息 流 分 析 工 作 需 要 修改 编译 器 或 


实时 执行 环境 ， 对 已 有 系统 兼容 性 差 且 缺乏 形式 化 分 析 与 安全 
性 证 明 等 不 足 , 提出 了 基于 有 限 状 态 自动 机 的 Java 信息 流 分 析 
方法 ， 并 证 明了 程序 执行 的 无 干扰 安全 性 。 采 用 静态 污点 跟踪 
指令 插入 和 动态 污点 跟踪 与 控制 的 方法 实现 了 原型 系统 IF- 
JVM, 实验 结果 表明 原型 系统 能 正确 实现 了 对 Java 虚拟 机 细 粒 
度 地 信息 流 跟踪 与 控制 。 后 续 可 研究 插 桩 系统 性 能 优化 ， 使 得 
插入 的 污点 指令 更 加 精简 高 效 。 
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